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DETAILED DESCRIPTION - AN INDEPENDENT CLAIM is also included for 
the following: an electrical device with a voice recognition device and 
a mobile radio terminal with a voice recognition device. 

USE - For training or adaptation of speech recognition device that 
affects the functions of an electrical device. 

ADVANTAGE - Enables more user convenience in training or adaptation 
of a speech recognition device. 
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Die folgenden Angaben sind den vom Anmelder eingereichten Unterlagen entnommen 

® Verfahren zum Training oder zur Adaption eines Spracherkenners 

@ Die Erfindung betrifft ein Verfahren zum Training oder 
zur Adaption eines Spracherkenners, der zur Einwirkung 
auf Funktionen eines elektrischen Gerats, beispielsweise 
Auslosung einer Sprachwahl bei einem Mobilfunkendge- 
rat, dient. Um das Training und/oder die Adaption des 
Spracherkenners fur den Benutzerkomfortablerzu gestal- 
ten, wird ein Verfahren mit den folgenden Schritten vor- 
geschlagen: 

- Tatigung einer Spracheingabe; 

- Verarbeitung der Spracheingabe mittels des Spracher- 
kenners zur Erzeugung eines Spracherkennungsergebnis- 
ses; 

- falls das Spracherkennungsergebnis einer Funktion des 
elektrischen Gerats zuordenbar ist, Einwirkung auf die zu- 
ordenbare Funktion des elektrischen Gerats; 

- Training oder Adaption des Spracherkenners auf der Ba- 
sis des zur getatigten Spracheingabe gehorigen Sprach- 
erkennungsergebnisses, falls die Einwirkung auf die zuor- 

' denbare Funktion des elektrischen Gerats keine eine Ab- 
lehnung zum Ausdruck bringende Benutzereingabe be- 
wirkt. 
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Beschreibung 

[0001] Die Erfindung betrifft ein Verfahren zum Training 
oder zur Adaption eines Spracherkenners, der zur Einwir- 
kung auf Funktionen eines elektrischen Gerats dient. 5 
[0002] Insbesondere ist das elektrische Gerat ein Mobil- 
funkendgerat, bei dem dem Einwirken auf Geratefunktionen 
die Durchfuhrung einer Sprachwahl einspricht, bei der 
durch eine Spracheingabe die Anwahl eines anderen Teil- 
nehmers bewirkt wird. Bei der Anwendung in einern Kraft- 10 
fahrzeug, bei der ublicherweise zur weiteren Unterstiitzung 
eines Benutzers eine Freisprecheinrichtung vorgesehen ist, 
wird der Bedienungskomfort fiir einen Benutzer verbessert, 
der zur Auslosung einer Anwahl eines anderen Teilnehmers 
nicht mehr eine Tastatureingabe durchfuhren muss. Weitere 15 
Einsatzgebiete der Erfindung sind beispielsweise die Steue- 
rung von Konsumelektronik-Geraten wie Fernseher, Video- 
recorder, Hifi-Musikanlagen, Kiichengeraten oder anderen 
Geraten mit Sprachsteuerung, bei denen auf die verschiede- 
nen Geratefunktionen mittels Sprache eingewirkt werden 20 
kann, z. B. Lautstarkeregelung, Wahl eines Fernseh- oder 
Radioprogramms oder Einstellung der Motordrehzahl eines 
Kiichengerates. 

[0003] Ein Spracherkenner kann trainiert und/oder adap- 
tierl werden, indem akustische Modelle und zugehorige Pa- 25 
rameter auf neue Worte, den Benutzer und gegebenenfalls 
auf Umgebungsgerausche oder die jeweilige Mikrofonposi- 
tion angepasst werden. Dabei werden entweder dem Lexi- 
kon des Spracherkenners, der das durch akustische Modelle 
reprasentierte Vokabular des Spracherkenners enthalt, neue 30 
Eintrage hinzugefugt oder es werden bereits vorhandene Vo- 
kabulareintrage angepasst. Bei Spracherkennem, die Hid- 
den Markov Modelle (HMM) verwenden, werden dabei 
t)bergangswahrscheinlichkeiten und Ausgabeverteilungen 
von Hidden Markov Modellen eingestellt. 35 
[0004] Beim Training wird der Spracherkenner auf 
Spracheingaben eines Benutzers angepasst, die dieser bisher 
noch nicht getatigt hat. Dies kann vor der Erstverwendung 
des Spracherkenners durch einen Benutzer oder auch spater 
nach der Inbetriebnahme fur noch nicht getatigte Sprachein- 40 
gaben geschehen. Es kann auch unter Verwendung alterer 
Sprachdaten ein Neutraining durchgefiihrt werden. Es sind 
verschiedene Varianten zur Durchfuhrung eines Trainings 
bekannt, bei denen z. B. ein Schatzen von Verteilungsgemi- 
schen bei fester HMM-Topologie oder auch eine Verande- 45 
rung der Anzahl oder der Verschaltung der HMM-Zustande 
erfolgt. 

[0005] Bei einer Adaption des Spracherkenners werden 
voreingestellte Parameter des Spracherkenners angepasst 
und optimiert, wobei die Voreinstellung der Parameter bei 50 
einem von einem Benutzer durchgefuhrten Training oder 
gegebenenfalls zusatzlich auch aufgrund schon getatigter 
Adaptionsvorgange erfolgt ist; die Voreinstellung der Para- 
meter kann aber auch benutzerunabhangig erfolgen. Bei der 
akustischen Adaption auf den Benutzer wird ein System mit 55 
Hilfe von gesammelten Sprachdaten spezifisch fiir diesen 
Benutzer verbessert, d. h. die Fehlerrate soil im Laufe der 
Adaption geringer werden. Eine Vielzahl von Adaptions ver- 
fahren ist bekannt, z. B. MAP (maximum a posteriori), 
MLLR (maximum likelihood linear regression), Eigenvoi- 60 
ces (dieses Verfahren wird derzeit nur bei aufwandig gestal- 
teten Systemen genutzt). Auch andere Formen der Adaption 
als die akustische Adaption sind moglich; so kann man etwa 
durch Aufstellen von Benutzungsstatistiken (z. B. durch 
Auswertung, wie oft ein Kommando oder eine Telefonnum- 65 
mer gesprochen wird und in welchen Kombinationen diese 
gesprochen werden) und eine Auswertung dieser Daten die 
Leistung eines Systems verbessern. 



[0006] Aus der US 5,805,672 ist es bekannt, in einem 
Kraftfahrzeug mittels eines einen Spracherkenner aufwei- 
senden Zusatzgerates eine Sprachwahlfunktion fiir ein Mo- 
bilfunkendgerat zur Verfugung zu stellen. Bei dem Einsatz 
im Kraftfahrzeug wird eines Freisprechvorrichtung verwen- 
det. Falls eine Sprachwahl erfolgen soli, muss vorher der 
Sprachwahlmodus aktiviert werden. Das Zusatzgerat er- 
kennt dann mittels des Spracherkenners trainierte Worte in 
einer Spracheingabe und ordnet einem erkannten Wort eine 
zugehorige Telefonnummer zu und der entsprechende Teil- 
nehmer wird automatisch angewahlt. Es ist ein Trainings- 
modus vorgesehen, bei dessen Aktivierung der Spracher- 
kenner trainiert werden kann. Der Trainingsmodus wird 
durch Tastendruck aktiviert. Beim Training wird ein Benut- 
zer aufgefordert, einen Namen zweimal zu sagen und die zu- 
gehorige Telefonnummer einzugeben. Danach driickt der 
Benutzer eine Bestatigungstaste, woraufhin das System das 
Spracherkennungsergebnis (den erkannten Namen) und die 
zugehorige Telefonnummer mittels Sprachausgabe an den 
Benutzer ausgibt. Danach kann der Benutzer mit dem Trai- 
ning bzgl. eines weiteren Namens fortfahren. 
[0007] Aus der WO 00/14729 ist Mobilfunkendgerat mit 
einem Spracherkenner und Sprachwahlfunktion bekannt, 
Auch hier ist ein Trainingsmodus vorgesehen, der durch Be- 
tatigung eines Schalters aktiviert wird. Wahrend des Trai- 
ningsmodus wird ein konventionelles Training durchge- 
fiihrt, bei dem das Vokabular des Spracherkenners durch 
Eingabe neuer Worter erweitert wird. 

[0008] Der Erfindung liegt die Aufgabe zugrunde, das 
Training und/oder die Adaption des Spracherkenners fur den 
Benutzer komfortabler zu gestalten. 

[0009] Die Aufgabe wird bei dem eingangs genannten 
Verfahren durch folgende Schritte gelost: 

- Tatigung einer Spracheingabe; 

- Verarbeitung der Spracheingabe mittels des Spra- 
cherkenners zur Erzeugung eines Spracherkennungser- 
gebnisses; 

- falls das Spracherkennungsergebnis einer Funktion 
des elektrischen Gerates zuordenbar ist, Einwirkung 
auf die zuordenbare Funktion des elektrischen Gerats; 

- Training oder Adaption des Spracherkenners auf der 
Basis des zur getatigten Spracheingabe gehorigen 
Spracherkennungsergebnisses, falls die Einwirkung 
auf die zuordenbare Funktion des elektrischen Gerats 
keine eine Ablehnung zum Ausdruck bringende Benut- 
zereingabe bewirkt. 

[0010] Das Training oder die Adaption mittels des erfin- 
dungsgemafien Verfahrens setzt keine Aktivierung eines 
Trainings- oder Adaption smodus voraus. Auch eine Bestati- 
gung von Benutzereingaben vor der Verwendung zum Trai- 
ning oder zur Adaption ist nicht erforderlich. Die Eignung 
einer Spracheingabe und eines zugehorigen Spracherken- 
nungsergebnisses zum Training oder zur Adaption wird 
vielmehr dadurch festgestellt, dass auf der Basis des Sprach- 
erkennungsergebnisses auf eine zuordenbare Geratefunk- 
tion eingewirkt wird, z. B. indem eine Sprachwahl ausgelost 
wird, und wenn dann der Benutzer keine Eingabe tatigt, mit 
der er seine Ablehnung zum Ausdruck bringt, z. B. indem er 
die Durchfuhrung der Geratefunktion abbricht (Anspruch 
2), wird davon ausgegangen, dass das Spracherkennungser- 
gebnis die Spracheingabe richtig reprasentiert und zum Trai- 
ning oder zur Adaption verwendet werden kann. Der Benut- 
zer kann seine Ablehnung beispielsweise auch durch eine 
Sprach- oder Tastatureingabe zum Ausdruck bringen. 
[0011] Anspruch 3 bezieht sich auf eine zusatzliche Siche- 
rungsmaBnahme, bevor ein Spracherkennungsergebnis zum 
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Training oder zur Adaption verwendet wird, so dass in Fal- 
len, bei dencn der Benutzer seine Ablehnung nicht zum 
Ausdruck bringt, obwohl das Spracherkennungsergebnis die 
Spracheingabe nicht korrekt reprasentiert, auf der Basis die- 
ses Spracherkennungsergebnisses ein Training oder eine 5 
Adaption nicht durchgefuhrt wird. Diese SicherungsmaB- 
nahme soil Falle absichem, in denen der Benutzer gerade 
abgelenkt wird und so seine Ablehnung nicht zum Ausdruck 
bringt, obwohl das Spracherkennungsergebnis unbefriedi- 
gend ist und auch nicht die beabsichtigte Einwirkung auf 10 
eine Geratefunktion erfolgt. 

[0012] Anspruch 4 bezieht sich auf solche Falle, in denen 
die in Anspruch 3 beschriebene SicherungsmaBnahme auf- 
grund eines unbefriedigenden ZuverlassigkeitsmaBes ein 
Training oder eine Adaption verhindert Erfolgt unmittelbar 15 
nach der Spracheingabe eine Eingabe mittels einer anderen 
Eingabemodalitat, z. B. mittels Tastatureingabe, ist die 
Wahrscheinlichkeit groB, dass sich die vorhergehende 
Spracheingabe und die Eingabe mittels der anderen Einga- 
bemodalitat dec ken. Zur Beurteilung dieser Deckungs- 20 
gieichheit wird ebenfalls ein ZuverlassigkeitsmaB gebildet, 
urn die Falle zu detektieren, bei denen sich die Sprachein- 
gabe und die folgende Eingabe mittels der anderen Eingabe- 
modalitat nicht decken. Falls dieses ZuverlassigkeitsmaB in 
einem vorgegebenen Sollbereich liegt, wird ein Training 25 
oder eine Adaption unter Berucksichtigung des Spracher- 
kennungsergebnisses und der Eingabe mittels der anderen 
Eingabemodalitat durchgefuhrt. 

[0013] Anspruch 5 bezieht sich wie Anspruch 4 auf Falle, 
in denen eine Spracheingabe zunachst als nicht zum Trai- 30 
ning oder zur Adaption geeignet beurteilt wird, anschlie- 
Bend jedoch die nachste Eingabe mittels einer anderen Ein- 
gabemodalitat erfolgt, so dass wiederum die Wahrschein- 
lichkeit groB ist, dass die Eingabe mittels der anderen Einga- 
bemodalitat und die vorhergehende Spracheingabe sich dek- 35 
ken. Im Gegensatz zu Anspruch 4 erfasst Anspruch 5 solche 
Falle, in denen nach einer Spracheingabe der Benutzer eine 
seine Ablehnung zum Ausdruck bringende Eingabe tatigt, 
so dass aus diesem Grund zunachst kein Training bzw. keine 
Adaption erfolgt. Auch hier wird vor dem Training bzw. vor 40 
der Adaption nach der Eingabe mittels der anderen Eingabe- 
modalitat eine Beurteilung mittels eines Zuverlassigkeits- 
maBes durchgefuhrt, um die Falle zu detektieren, bei denen 
sich die Spracheingabe und die folgende Eingabe mittels der 
anderen Eingabemodalitat nicht decken 45 
[0014] Bei der Ausgestaltung gemaB Anspruch 6 wird zu 
einem Spracherkennungsergebnis jeweils mindestens eine 
Spracherkennungsergebnisalternative erzeugt. Wird auf der 
Basis der letzten Spracheingabe und eines zugehorigen 
Spracherkennungsergebnisses ein Training oder eine Adap- 50 
tion durchgefuhrt, wird fur den Fall, dass die vorletzte 
Spracheingabe kein Training bzw. keine Adaption bewirkt 
hat, zusatzlich gepriift, ob das Spracherkennungsergebnis 
zur letzten Spracheingabe einer Spracherkennungsergebni- 
saltemative zur vorletzten Spracheingabe entspricht. Ist dies 55 
der Fall, wird davon ausgegangen, dass die vorletzte 
Spracheingabe und die letzte Spracheingabe einander ent- 
sprechen. Bei einem anschlieBenden zusatzlichen Training 
bzw. einer anschlieBenden zusatzlichen Adaption werden 
Parameter des Spracherkenners so angepasst, dass sowohl 60 
die vorletzte Spracheingabe als auch die letzte Sprachein- 
gabe bei einer emeuten Eingabe zum richtigen Spracherken- 
nungsergebnis fuhren wiirden, d. h. zum Spracherkennungs- 
ergebnis, das zur letzten Spracheingabe ermittelt wurde. 
[0015] Bei der Ausgestaltung gemaB Anspruch 7 wird ei- 65 
nem Benutzer ein Spracherkennungsergebnis akustisch oder 
visuell mitgeteilt. Damit ist ein Benutzer bei der Beurteilung 
der Richtigkeit eines Erkennungsergebnisses nicht allein auf 



das Erkennen der Durchfuhrung einer Geratefunktion ange- 
wiesen. Die zusatzlichen Informationen benotigt der Benut- 
zer dann, wenn die Durchfuhrung einer Geratefunktion fur 
den Benutzer nicht erkennbar ist oder ihm nur unzurei- 
chende Informationen zum vom Spracherkenner erzeugten 
Spracherkennungsergebnis liefert. 

[0016] Die Anspruche 8 und 9 beziehen sich auf die An- 
wendung der Erfindung in einem Mobiltelefon. Der Spra- 
cherkenner wird hier insbesondere zur Sprachwahl einge- 
setzt. 

[0017] Anspruch 10 betrifft ein elektrisches Gerat zur 
Durchfuhrung des erfindungsgemaBen Verfahrens. In An- 
spruch 11 ist das elektrische Gerat als Mobilfunkendgerat 
konkretisiert. 

[0018] Ausfuhrungsbeispiele der Erfindung werden im 
folgenden anhand der Zeichnungen naher erlautert. Es zei- 
gen: 

[0019] Fig. 1 ein Blockschaltbild eines Mobilftmkendge- 
rats und 

[0020] Fig. 2 bis 5 Flussdiagranune zu verschiedenen Va- 
rianten der Erfindung. 

[0021] Fig. 1 zeigt ein als Mobilfunkendgerat ausgestalte- 
tes elektrisches Gerat 1 mit einem digitalen Signalprozessor 
2, der einerseits zur Sprachcodierung/Sprachdecodierung 
und zur Freisprech- Signal verarbeitung (zusammengefasst 
durch einen Funktionsblock 3) und andererseits zur Durch- 
fuhrung von Spracherkennungsprozeduren eines Spracher- 
kenners (Funktionsblock 4) zusammengefasst ist, eingesetzt 
wird. Das Mobilfunkendgerat 1 weist ein Mikrofon 5 und ei- 
nen Lautsprecher 6 auf, die uber Analog-Digital-Wandler 7 
und 8 mit dem digitalen Signalprozessor 2 gekoppelt sind.. 
Das Mobilfunkendgerat 1 enthalt ausserdem einen Mikro- 
controller 9 zur zentralen Steuerung der Funktionen des Mo- 
bilfunkendgerats 1. Weiterhin ist eine Speichervorrichtung 

10 vorgesehen, die zur Speicherung eines Lexikons 11 fur 
den Spracherkenner 4 und sonstiger Daten 12 dient, wobei 
die sonstigen Daten vereinfachend durch den Funktions- 
block 12 zusammen gefasst sind, da sie fur die Erfindung 
nicht wesentlich sind. Das Lexikon 11 enthalt das Vokabular 
des Spracherkenners 4 in Form von akustischen Modellen, 
die als Hidden-Markov-Modelle realisiert sind; das Lexikon 

11 ist als Teil des Spracherkennens 4 anzusehen. Das Mobil- 
funkendgerat 1 enthalt auBerdem eine Tastatureingabeein- 
heit 13 und eine Anzeigeeinheit (Display) 14. ttber eine An- 
tenne 15 werden Hochfrequenzsignale empfangen und ab- 
gestrahlt, die von einer Sende-ZEmpfangseinheit 16 verar- 
beitet werden. Eine Kanalcodierungs-/Kanaldecodierungs- 
einheit 17 dient zur Kanalcodierung von zu sendenden Si- 
gnalen bzw. zur Kanaldecodierung empfangener Signale. 
Ein Bussystem 18 verbindet den digitalen Signalprozessor 
2, den Mikrocontroller 9, die Speichervorrichtung 10, die 
Tastatureingabeeinheit 13, die Anzeigeeinheit 14 und die 
Kanalcodierungs-/decodierungseinheit 17. 

[0022] Mittels des Spracherkenners 4 ist es moglich, 
durch uber das Mikrofon 5 eingegebene Spracheingaben auf 
Funktionen des Mobilfunkendgerates 1 einzuwirken. Im 
vorliegenden Fall kann bspw. mittels einer Spracheingabe 
eine Anwahl eines anderen Teilnehmers ausgeldst werden 
(Sprachwahl). Dabei sagt ein Benutzer entweder die Tele- 
fonnummer des anzurufenden anderen Teilnehmers oder er 
spricht den Namen des anderen Teilnehmers aus, wobei 
dann vorher dem Namen die zugehorige Telefonnummer zu- 
geordnet sein muss, wobei zur Eingabe dieser Zuordnung 
entweder nur Spracheingaben oder nur Tastatureingaben 
uber die Tastatureingabeeinheit 13 oder sowohl Tastaturein- 
gaben als auch Spracheingaben dienen konnen. Um eine 
einwandfreie Funktion des Spracherkenners 4 zu gewahrlei- 
sten, ist ein Training des Spracherkenners 4 erforderlich, 
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d. h. es muss ein an die jeweilige Anwendung angepasstes 
und im Lexikon 11 abgelegtes Vokabular aufgebaut werden. 
Auch eine spatere Adaption von bereits trainierten akusti- 
schen Modellen des Spracherkenners 4 ist hier vorgesehen, 
urn den Spracherkenner auf veranderte Einsatzbedingungen 
anzupassen. 

[0023] Die Fig. 2 bis 5 zeigen verschiedene Ausgestaltun- 
gen zum Training oder zur Adaption des Spracherkenners 4. 
[0024] Bei dem in Fig. 2 gezeigten Ansatz wird zunachst 
in einem Schritt 200 der Spracheingabemodus z. B. durch 
Driicken einer entsprechenden Aktivierungs taste aktiviert. 
In einem Schritt 201 tatigt der Benutzer eine Spracheingabe, 
wobei er hier den Namen eines anderen Teilnehiners eingibt, 
den er anrufen will. In Schritt 202 wird mit Hilfe des Spra- 
cherkenners 4 eine automatische Spracherkennung durchge- 
fiihrt und ein Spracherkennungsergebnis erzeugt. Dieses 
Spracherkennungsergebnis wird in Schritt 203 an den Be- 
nutzer ausgegeben, z. B. durch visuelle Ausgeben tiber die 
Anzeigeeinheit 14 oder mittels einer akustischen Ausgabe 
iiber den Lautsprecher 6. Ausgehend davon, dass dem er- 
kannten Namen schon vomer eine Telefonnummer zugeord- 
net worden ist, wird nun in Schritt 204 eine automatische 
Anwahl bezuglich dieser Telefonnummer durchgefuhrt. In 
Schritt 205 wird abgefragt, ob die automatische Anwahl 
durch den Benutzer unterbrochen wird (bspw. durch Driik- 
ken einer bestimmten Taste oder durch Sprechen eines Stop- 
Sprachkommandos in den Fallen, in denen der Benutzer ein 
falsches Spracherkennungsergebnis erkennt und dieses ab- 
lehnt), erfolgt ein Riicksprung an die Stelle zwischen Schritt 
200 und Schritt 201, wobei das Gerat zum Empfang einer 
weiteren Spracheingabe bereit ist. Wird die automatische 
Anwahl nicht unterbrochen und in Schritt 205 die Abfrage 
mit nein beantwortet, erfolgt ein Training oder eine Adap- 
tion des Spracherkenners 4 auf der Basis des in Schritt 202 
ermittelten Spracherkennungsergebnisses. AnschlieBend er- 
folgt ein Riicksprung zwischen die Schritte 200 und 201, so 
dass eine weitere Spracheingabe getatigt werden kann. 
[0025] Bei der Ausgestaltung gemass Fig. 3 wird zunachst 
in einem Schritt 300 der Spracheingabemodus des Mobil- 
funkendgerats 1 aktiviert. Danach wird in Schritt 301 eine 
Spracheingabe getatigt, d. h. im vorliegenden Fall ein Name 
ausgesprochen. Nach der Durchfuhrung einer Spracherken- 
nung in Schritt 302 wird in Schritt 303 das Spracherken- 
nungsergebnis akustisch oder visuell an den Benutzer wie- 
dergegeben. AnschlieBend wird wie schon in Fig. 2 eine au- 
tomatische Anwahl eines Teilnehmers mit dem erkannten 
Namen ausgelost. In Schritt 305 wird abgefragt, ob die auto- 
matische Anwahl vom Benutzer unterbrochen wird. Ist dies 
der Fall, wird an die Stelle zwischen den Schritten 300 und 
301 zuriick gesprungen, denn dann ist davon auszugehen, 
dass der Benutzer das Spracherkennungsergebnis als falsch 
erkannt hat und ablehnt. Wird die automatische Anwahl 
nicht unterbrochen, erfolgt in Schritt 306 die Berechnung ei- 
nes ZuveriassigkeitsmaBes fiir das Spracherkennungsergeb- 
nis. In Schritt 307 wird dann abgefragt, ob das Zuverlassig- 
keitsmaB in einem vorgegebenen Sollbereich liegt. Ist dies 
nicht der Fall wird an die Stelle zwischen den Schritten 300 
und 301 zuriickgesprungen. Liegt das ZuverlassigkeitsmaB 
in dem vorgegeben Sollbereich, ist davon auszugehen, dass 
das Spracherkennungsergebnis die Spracheingabe tatsach- 
lich korrekt reprasentiert und es wird in Schritt 308 auf der 
Basis dieses Spracherkennungsergebnisses ein Training 
oder eine Adaption durchgefuhrt, 

[0026] Bei der Ausgestaltungsvariante gemaB Fig. 4 wird 
in einem Schritt 400 zunachst der Spracheingabemodus ak- 
tiviert. Danach wird in Schritt 401 eine Spracheingabe geta- 
tigt, d. h. der Name eines anzurufenden Teilnehmers ausge- 
sprochen. In Schritt 402 wird eine Spracherkennung beziig- 



lich der getatigten Spracheingabe durchgefuhrt. Das Sprach- 
erkennungsergebnis wird akustisch oder visuell in Schritt 
403 an den Benutzer ausgegeben. In Schritt 404 wird eine 
automatische Anwahl eines Teilnehmers mit dem erkannten 

5 Namen ausgelost. In Schritt 405 wird uberpriift, ob die An- 
wahl vom Benutzer unterbrochen wird. 
[0027] Ist dies der Fall, d. h. wird das Spracherkennungs- 
ergebnis vom Benutzer als falsch erkannt wird an die Stelle 
zwischen den Schritten 400 und 401 zuriickgesprungen. 

10 Wird die automatische Anwahl vom Benutzer nicht unter- 
brochen, wird fur das Spracherkennungsergebnis in Schritt 
406 ein erstes ZuverlassigkeitsmaB bestimmt. Bei einer Ab- 
frage in Schritt 407 wird festgestellt, ob dieses erste Zuver- 
lassigkeitsmaB in einem vorgegebenen ersten Sollbereich 

15 liegt. Ist dies der Fall, wird in einem Schritt 408 auf der Ba- 
sis des Spracherkennungsergebnisses ein Training oder eine 
Adaption des Spracherkenners 4 durchgefuhrt. Wird in 
Schritt 407 festgestellt, dass das erste ZuverlassigkeitsmaB 
nicht in dem ersten Sollbereich liegt, wird in Schritt 409 

20 uberpriift, ob die nachfolgende Eingabe mittels einer ande- 
ren Eingabemodalitat, bspw. durch Tastatureingabe, erfolgt. 
Ist dies nicht der Fall, erfolgt wiederum ein Riicksprung an 
die Stelle zwischen den Schritten 400 und 401. Wird in 
Schritt 409 dagegen festgestellt, dass die unmittelbar nach- 

25 folgende Eingabe mittels einer anderen Eingabemodalitat - 
also insbesondere durch Tastatureingabe - erfolgt, ist die 
Wahrscheinlichkeit groB, dass sich die vorhergehende 
Spracheingabe und die jetzt nachfolgende Eingabe mittels 
der anderen Eingabemodalitat entsprechen, d. h. der Benut- 

30 zer versucht nach einer erfolglosen Sprachwahl eine An- 
wahl des gleichen Teilnehmers durch Eingabe mittels der 
anderen Eingabemodalitat auszulosen. Nach der Eingabe 
mittels der anderen Eingabemodalitat wird in Schritt 410 ein 
zweites ZuverlassigkeitsmaB fur das vorhergehende Sprach- 

35 erkennungsergebnis unter Beriicksichtigung der Eingabe 
mittels der anderen Eingabemodalitat bestimmt. In Schritt 
411 wird uberpriift, ob das zweite ZuverlassigkeitsmaB in ei- 
nem vorgegebenen zweiten Sollbereich liegt. Ist dies der 
Fall wird mit Schritt 408 ein Training oder eine Adaption 

40 des Spracherkenners auf der Basis des Spracherkennungser- 
gebnisses unter Beriicksichtigung der mittels der anderen 
Eingabemodalitat erfolgten Benutzereingabe durchgefuhrt. 
Wird in Schritt 411 festgestellt, dass das zweite Zuverlassig- 
keitsmaB nicht im vorgegeben zweiten Sollbereich liegt, 

45 entspricht dies der Annahme das sich die Eingabe mittels 
der anderen Eingabemodalitat und die vorhergehende 
Spracheingabe nicht entsprechen und es erfolgt ein Riick- 
sprung zwischen die Schritte 400 und 401. 
[0028] Grundsatzlich kann auch in den Fallen, in denen in 

50 Schritt 405 festgestellt wird, dass der Benutzer die Anwahl 
eines Teilnehmers unterbricht und er somit die Ablehnung 
des Spracherkennungsergebnisses zum Ausdruck bringt, an- 
stelle eines Rucksprungs zwischen die Schritte 400 und 401 
mit der Abfrage in Schritt 409 fortgefahren werden, was 

55 durch durch den mit einer gestrichelten Linie dargestellten 
Sprung 412 angedeutet ist. Erfolgt also unmittelbar an- 
schlieBend eine Eingabe mittels einer anderen Eingabemo- 
dalitat, kann wiederum mit einer hohen Wahrscheinlichkeit 
davon ausgegangen werden, dass sich die Eingabe mittels 

60 der anderen Eingabemodalitat und die vorausgehende 
Spracheingabe einander entsprechen und das Spracherken- 
nungsergebnis die Spracheingabe nicht richtig reprasentiert. 
Trotzdem kann das Spracherkennungsergebnis, auch wenn 
es nicht vollstandig richtig ist, zum Training oder zur Adap- 

65 tion des Spracherkenners verwendet werden, wenn eine aus- 
reichende Ahnlichkeit mit der Spracheingabe bzw. mit der 
Eingabe mittels der anderen Eingabemodalitat besteht, was 
mittels der Uberpriifung anhand eines Zuverlassigkeitsma- 
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Bes abgeschatzt wird. In das Training gehen dann sowohl die 
im Spracherkennungsergebnis enthaltenen Informationen 
als auch die in der Eingabe mittels der anderen Eingabemo- 
dalitat enthaltenen Informationen ein. 

[0029] SchlieBlich zeigt Fig. 5 eine Erfindungsvariante, 5 
bei der ein diskriminatives Training bzw. eine diskrimina- 
uve Adaption eingesetzt wird. In einem Schritt 500 wird der 
Spracheingabemodus aktiviert, in Schritt 501 eine Sprach- 
eingabe betatigt, d. h. hier ein Name ausgesprochen und in 
einem Schritt 502 wird eine Spracherkennung mittels des 10 
Spracherkenners 4 durchgefuhrt, bei der neben dem Sprach- 
erkennungsergebnis mindestens eine weitere Spracherken- 
nungsergebnisalternative erzeugt wird. In einem Schritt 503 
wird das Spracherkennungsergebnis akustisch oder visuell 
an den Benutzer ausgegeben. In einem Schritt 504 wird be- 15 
zuglich des Spracherkennungsergebnisses eine automati- 
sche Anwahl eines Teilnehmers mit dem erkannten Namen 
durchgefuhrt. In einem Schritt 505 wird uberpruft, ob die 
Anwahl vom Benutzer unterbrochen wird. 1st dies der Fall 
wird an die Stelle zwischen den Schritten 500 und 501 zu- 20 
riickgesprungen. 1st dies nicht der Fall wird in Schritt 506 
ein Training oder eine Adaption des Spracherkenners 4 auf 
der Basis dieses letzten Spracherkennungsergebnisses 
durchgefiihrt. In einem Abfrageschritt 507 wird danach wei- 
terhin uberpruft, ob dieses letzte Spracherkennungsergebnis 25 
einer zur vorletzten Spracheingabe ermittelten Spracherken- 
nungsergebnisalternative entspricht und ob die vorletzte 
Spracheingabe zu einem Abbruch der automatischen An- 
wahl durch den Benutzer gefuhrt hat. 1st eine der Bedingun- 
gen nicht erfiillt, erfolgt ein Riicksprung zwischen die 30 
Schritte 500 und 501. Sind beide Bedingungen erfullt, wird 
davon ausgegangen, dass die genannte Spracherkennungsal- 
ternative zur vorletzten Spracheingabe eigentlich das rich- 
tige Spracherkennungsergebnis zur vorletzten Sprachein- 
gabe reprasentiert. Fur diesen Fall wird in Schritt 508 ein 35 
diskriminatives Training oder eine diskriminative Adaption 
durchgefuhrt, wobei vorausgesetzt wird das die letzte und 
vorletzte Spracheingabe dasselbe Wort oder die selbe Wort- 
folge reprasentieren. Die zum entsprechenden Vokabular- 
eintrag im Lexikon 11 gehorigen akustischen ModeLLe wer- 40 
den so angepasst, dass der Spracherkenner 4 sowohl zur 
letzten als auch zur vorletzten Spracheingabe das richtige 
Spracherkennungsergebnis erzeugen wurde. Nach der 
Durchfiihrung des Schrittes 508 wird wiederum an die Stelle 
zwischen den Schritten 500 und 501 zuriick gesprungen. 45 
[0030] Die Erflndung ist weder auf die Anwendung in ei- 
nem Mobilfunkendgerat noch auf Sprachwahl beschrankt. 
Mittels Spracheingaben kann auch auf andere Funktionen 
eines elektrischen Gerates eingewirkt werden, z, B. auf die 
Lautstarkeeinstellung von Sprachausgaben. Auch muss 50 
nicht unbedingt eine akustische oder visuelle eines Sprach- 
erkennungsergebnisses an den Benutzer erfolgen, insbeson- 
dere dann nicht, wenn der Benutzer aus der Durchfiihrung 
einer zu einer Spracheingabe korrespondierenden Gerate- 
funktion ohne weitere Information auf die Richtigkeit des 55 
Spracherkennungsergebnisses schliefien kann. Weiterhin 
kann der Benutzer seine Ablehnung auch zusatzlich oder al- 
ternativ durch vorgegebene Eingaben (z. B. vorgegebene 
Sprach- oder Tastatureingaben) zum Ausdruck bringen, die 
eine eingeleitete Geratefunktion nicht unterbrechen. 60 

Patentanspriiche 

1. Verfahren zum Training oder zur Adaption eines 
Spracherkenners (4), der zur Einwirkung auf Funktio- 65 
nen eines elektrischen Gerats (1) dient, wobei folgende 
Schritte vorgesehen sind: 

- Tatigung einer Spracheingabe; 



- Verarbeitung der Spracheingabe mittels des 
Spracherkenners (4) zur Erzeugung eines Sprach- 
erkennungsergebnisses; 

- falls das Spracherkennungsergebnis einer 
Funktion des elektrischen Gerates (1) zuordenbar 
ist, Einwirkung auf die zuordenbare Funktion des 
elektrischen Gerats (1); 

- Training oder Adaption des Spracherkenners 
(4) auf der Basis des zur getatigten Spracheingabe 
gehorigen Spracherkennungsergebnisses, falls die 
Einwirkung auf die zuordenbare Funktion des 
elektrischen Gerats (1) keine eine Abiehnung zum 
Ausdruck bringende Benutzereingabe bewirkt. 

2. Verfahren nach Anspruch 1, dadurch gekennzeich- 
net, dass das Training oder die Adaption des Spracher- 
kenners (4) erfolgt, wenn die Durchfiihrung der Funk- 
tion des elektischen Gerats (1) nicht durch eine Benut- 
zereingabe abgebrochen wird. 

3. Verfahren nach Anspruch 1 oder 2, dadurch gekenn- 
zeichnet, dass fur ein Spracherkennungsergebnis des 
Spracherkenners (4) ein ZuverlassigkeitsmaB bestimmt 
wird und dass ein Training oder eine Adaption des 
Spracherkenners (4) auf der Basis des zur getatigten 
Spracheingabe korrespondierenden Spracherken- 
nungsergebnisses durchgefuhrt wird, wenn das Zuver- 
lassigkeitsmaB des Spracherkennungsergebnisses in ei- 
nem vorgegebenen Sollbereich liegt. 

4. Verfahren nach Anspruch 1 oder 2, dadurch gekenn- 
zeichnet, 

dass fur ein Spracherkennungsergebnis des Spracher- 
kenners (4) ein erstes ZuverlassigkeitsmaB bestimmt 
wird, 

dass ein Training oder eine Adaption des Spracherken- 
ners (4) auf der Basis des zur getatigten Spracheingabe 
korrespondierenden Spracherkennungsergebnisses 
durchgefuhrt wird, wenn das erste ZuverlassigkeitsmaB 
des Spracherkennungsergebnisses in einem vorgegebe- 
nen ersten Sollbereich liegt, 

dass fur den Fall, dass das erste ZuverlassigkeitsmaB 
nicht im ersten Sollbereich liegt und auBerdem die 
nachfolgende Benutzereingabe mittels einer anderen 
Eingabemodalitat erfolgt, vorgesehen ist, unter Be- 
riicksichtigung der Eingabe mittels der anderen Einga- 
bemodalitat ein zweites ZuverlassigkeitsmaB fur das 
Spracherkennungsergebnis zu bestimmen und ein Trai- 
ning oder eine Adaption auf der Basis des Spracher- 
kennungsergebnisses unter Beriicksichtigung der mit- 
tels der anderen Eingabemodalitat erfolgten Benutzer- 
eingabe durchzufuhren, wenn das zweite Zuverlassig- 
keitsmaB in einem vorgegebenen zweiten Sollbereich 
liegt. 

5. Verfahren nach Anspruch 1 oder 2, dadurch gekenn- 
zeichnet, dass fur den Fall, dass nach einer Sprachein- 
gabe eine eine Ablehnung eines Spracherkennungser- 
gebnisses zum Ausdruck bringende Benutzereingabe 
erfolgt und auBerdem im AnschluB daran eine Benut- 
zereingabe mittels einer anderen Eingabemodalitat er- 
folgt, vorgesehen ist, unter Beriicksichtigung der Ein- 
gabe mittels der anderen Eingabemodalitat ein Zuver- 
lassigkeitsmaB fur das Spracherkennungsergebnis zu 
bestimmen und ein Training oder eine Adaption des 
Spracherkenners (4) durchzufuhren, wobei vorausge- 
setzt wird, dass die Spracheingabe und die Benutzer- 
eingabe mittels der anderen Eingabemodalitat dasselbe 
Wort oder dieselbe Wortfolge reprasentieren. 

6. Verfahren nach Anspruch 1 oder 2, dadurch gekenn- 
zeichnet, 

dass der Spracherkenner (4) zusatzlich zu einem 
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Spracherkennungsergebnis jeweils mindestens eine 
Spracherkennungsergebnisalternative liefert, dass ein 
Training oder eine Adaption des Spracherkenners (4) 
auf der Basis des zur letzten Spracheingabe gehorigen 
Spracherkennungsergebnisses erfolgt, falls die Einwir- 5 
kung auf die dem Spracherkennungsergebnis zuorden- 
baren Funktion des elektrischen Gerats (1) keine eine 
Ablehnung des Spracherkennungsergebnisses zum 
Ausdruck bringende Benutzereingabe bewirkt und 
dass fur den Fall, dass 10 
das Spracherkennungsergebnis einer Spracherken- 
nungsergebnisalternative zur vorletzten Spracheingabe 
entspricht und 

dass eine eine Ablehnung des vorletzten Spracherken- 
nungsergebnisses zum Ausdruck bringende Benutzer- 15 
eingabe erfolgt ist, 

ein weiteres Training oder eine weitere Adaption des 
Spracherkenners erfolgt, bei dem vorausgesetzt wird, 
dass die letzte und vorletzte Spracheingabe dasselbe 
Wort oder dieselbe Wortfolge reprasentieren. 20 

7. Verfahren nach einem der Anspriiche 1 bis 6, da- 
durch gekennzeichnet, dass eine akustische oder visu- 
elle Wiedergabe eines Spracherkennungsergebnisses 
vorgesehen ist. 

8. Verfahren nach einem der Anspriiche 1 bis 7, da- 25 
durch gekennzeichnet, dass das elektrische Gerat (1) 
ein Mobiltelefon ist, 

9. Verfahren nach Anspruch 8, dadurch gekennzeich- 
net, dass mittels einer Spracheingabe ein Anwahlvor- 
gang ausgelost wird. 30 

10. Elektrisches Gerat (1) mit einem Spracherkenner 
(4), der zur Einwirkung auf Funktionen des elektri- 
schen Gerats dient, wobei das elektrisches Gerat (1) 
und der Spracherkenner (4) derart ausgestaltet sind, 
dass folgende Schritte zum Training oder zur Adaption 35 
des Spracherkenners (4) dienen: 

- Tatigung einer Spracheingabe; 

- Verarbeitung der Spracheingabe mittels des 
Spracherkenners (4) zur Erzeugung eines Sprach- 
erkennungsergebnisses; 40 

- falls das Spracherkennungsergebnis einer 
Funktion des elektrischen Gerates (1) zuordenbar 
ist, Einwirkung auf die zuordenbare Funktion des 
elektrischen Gerats (1); 

- Training oder Adaption des Spracherkenners 45 
(4) auf der Basis des zur getatigten Spracheingabe 
gehorigen Spracherkennungsergebnisses, falls die 
Einwirkung auf die zuordenbare Funktion des 
elektrischen Gerats (1) keine eine Ablehnung zum 
Ausdruck bringende Benutzereingabe bewirkt. 50 

11. Mobilfunkendgerat (1) mit einem Spracherken- 
ner^), der zur Einwirkung auf Funktionen des Mobil- 
funkendgerats (1) dient, wobei das Mobilfunkendgerat 
(1) und der Spracherkenner (4) derart ausgestaltet sind, 
dass folgende Schritte zum Training oder zur Adaption 55 
des Spracherkenners (4) dienen: 

- Tatigung einer Spracheingabe; 

- Verarbeitung der Spracheingabe mittels des 
Spracherkenners (4) zur Erzeugung eines Sprach- 
erkennungsergebnisses; 60 

- falls das Spracherkennungsergebnis einer 
Funktion des Mobilfunkendgerats (1) zuordenbar 
ist, Einwirkung auf die zuordenbare Funktion des 
Mobilfunkendgerats (1); 

- Training oder Adaption des Spracherkenners 65 
. (4) auf der Basis des zur getatigten Spracheingabe 

gehorigen Spracherkennungsergebnisses, falls die 
Einwirkung auf die zuordenbare Funktion des 



Mobilfunkendgerats (1) keine eine Ablehnung 
zum Ausdruck bringende Benutzereingabe be- 
wirkt. 
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